¿Conoces la TPU? Este chip es una de las revoluciones de nuestro siglo y la salvación de Google Cloud.
Estamos en la era de los aceleradores IA, chips creados para automatizar y hacer eficientes millones de procesos. NVIDIA, AMD e IBM fueron los precursores, mientras que otros gigantes decidieron crear sus propios aceleradores. Vamos a profundizar en qué es una TPU, como cualquier acelerador de tensores, algo que se repite, pero que no se explica.
Índice de contenidos
Qué es una TPU
Como sus siglas indican, el TPU (Tensor Processing Unit) es un chip personalizado (ASIC) por Google para acelerar cargas de Machine Learning. Su arquitectura es de matriz sistólica, es decir, los datos fluyen a través de una red de miles de multiplicadores interconectados; sí, «sistólica» significa que los datos bombean a través del chip.
Cada TPU entrena modelos eficientemente con un hardware determinado para realizar operaciones de matrices gigantes; para ello, requieren de una memoria VRAM HBM integrada en el chip. Las TPU se pueden conectar en «porciones», unos grupos que escalan las cargas de trabajo verticalmente.
En este caso, TPU es una marca creada y registrada por Google, es un chip diseñado por Norman Jouppi en 2013-2014. La TPU es el resultado de un proyecto de Google Cloud porque detectaron que, si la gente usase la búsqueda por voz durante 3 veces al día, Google debería aumentar sus centros de datos.
Así que, diseñaron un chip que supiese hacer multiplicaciones de matrices a gran escala. Se presentó en 2016 y AlphaGo fue una de las más importantes.
¿Qué es un ASIC?
Un ASIC es un chip diseñado y fabricado para una tarea o un conjunto de ellas muy determinado con el fin de ser lo más rápido y eficiente en dicha tarea. La TPU es un ASIC, los chips que tiene IBM para cálculos cuánticos, el ISP (Image Signal Processor) de las cámaras, etc.
Es decir, procesadores con un fin muy determinado; todo lo contrario a lo que puede hacer una CPU: operaciones aritméticas, gestionar la memoria, controlar periféricos, interpretar códigos de lenguaje, calcular al lógica en juegos, compilar código, cifrar datos y podría tirarme así 5 párrafos.
Para qué sirve una TPU
NVIDIA fue la primera en hablar de los «tensores» e incluso crear los Tensor Cores, y los tiros van por ahí. Todo esto de la IA tiene un sustento matemático detrás, leemos sobre «entrenar», «usar», «enseñar» a una inteligencia artificial, pero detrás de esto hay físicos y matemáticos trabajando a destajo.
Todas las operaciones que hace la IA son matemáticas, y aquí aparece la TPU para realizar sumas y multiplicaciones de bloques de datos en un ciclo de reloj. Es decir, donde una CPU suma 1+1, la TPU procesa bloques de 256×256 de golpe. Hablamos de multiplicación de matrices, una tarea que se da en la IA continuamente y que una TPU la realiza en menos tiempo que una CPU o GPU.
La TPU es el cerebro que ejecuta lo que le pides a Google:
- Cuando haces una búsqueda.
- Cuando usas el Translator.
- Cuando usas Gemini y le pides que te explique algo, que genere una imagen, etc.
Es un chip que tiene la capacidad de procesar millones de consultas simultáneas consumiendo menos que una GPU profesional. Si esto lo escalas a miles o cientos de miles… el ahorro energético es una locura en el centro de datos.
Por tanto, una TPU es brutal para lenguajes grandes de IA por su velocidad y coste, ya que no tiene que acceder a la memoria por cada operación. Si minimizas el acceso a la memoria, minimizas el coste de producción una barbaridad porque todos sabemos cómo está el sector.
Ventajas y desventajas de la TPU
Vamos con un clásico pros y contras de la TPU, un chip que suscita interés porque no se vende en masa y es misterioso.
Comenzando con las ventajas, la principal es el rendimiento/vatio. Podemos crear un chip majestuoso, que si consume una locura… es caro de mantener, caro de fabricar e inviable para negocios. La «gracia» del TPU es que es un chip dedicado para una tarea, siendo eficiente energéticamente y si eso multiplicamos a granjas de servidores… es una ventaja.
La segunda ventaja es su sistema de «porciones» o «pods». Esto da viabilidad a crear superordenadores que conecten los TPUs entre sí para entrenar modelos, reduciendo mucho el tiempo de realización de la tarea.
Y la tercera ventaja está en su optimización con TensorFlow y JAX, el ecosistema de Google para todo este tema.
¿Qué desventajas tiene una TPU? Es un ASIC, así que no es un chip flexbile o versátil para una variedad de tareas que vayan más allá de la IA. Fuera de la red neuronal, es un chip irrelevante y poco potente.
Otra gran desventaja es que está diseñado para Google Cloud Platform, o para el ecosistema de la marca (NVIDIA lo hace con CUDA). La TPU como marca es propiedad de Google y no puedes irte más allá.
Y la última desventaja de la TPU es la falta de precisión en cálculos complejos, es decir, FP64. Todo lo que sea FP16 lo hace perfectamente, pero como le pidas cálculos científicos complejos… la GPU o CPU profesionales son mejores opciones.
TPU y NPU, las diferencias
La NPU es el motor IA que tiene una CPU, cuya potencia IA es reducida para tareas domésticas o no tan profesionales. La idea es que tengas la viabilidad de realizar tareas IA de forma privada y sin usar Internet, estando integrada en un SoC o CPU de forma local.
Puedo destacar su bajo consumo, pero su aplicabilidad se diluye bastante. Las NPU fueron impulsadas por Copilot, así como por Google Gemini o Apple Intelligence a nivel usuario. Dicho esto, parece que no
En cambio, la TPU es un chip que solo vemos en los servidores de Google, así como sus variantes homólogas están en servidores AWS, Meta, etc. Al final, es un chip totalmente nicho que solo encuentras en servidores, mientras que la NPU tiene una integración en CPUs o SoCs.
La GPU profesional y su diferencia con la TPU
Mientras que la TPU está especializada en IA y operaciones matemáticas, la GPU profesional va mucho más allá que los simples cálculos.
De entrada, una TPU no tiene motores multimedia o de «visualización». Aquí hablamos de los CUDA Cores y RT Cores (los Tensor Cores sí los tiene). Los primeros son núcleos de propósito general, encargándose de renderizar escenas, objetos 3D… vamos, de convertir vectores en píxeles. Los segundos son núcleos para calcular rebotes de luz, sombras, reflejos, etc., una tarea que incluye muchos cálculos matemáticos a decir verdad.
Más allá de las tareas gráficas, una GPU se encargan de cálculos de precisión doble (FP64) y sirve para tareas muy complejas: aerodinámica de coches, resistencias de puentes o estructuras y un largo etcétera.
También debo decir que una GPU habla muchos lenguajes para hacer muchísimas tareas distintas (CUDA, ROCm, etc.) y tienen salidas de vídeo para enviar toda la información a una pantalla.
Conclusiones sobre la TPU
Llámalo TPU, Trainium 2 (AWS), Azure Maia (Microsoft), Gaudi (Intel)… que al final es un ASIC enfocado a realizar tareas cuya construcción es barata y se puede juntar con otras TPUs para tener más potencia de procesamiento.
Es un componente que solo se ven en servidores, que Google inventó para hacer su negocio viable. Esto marcó la estela a seguir por otras empresas dedicadas al cloud, como es AWS, Microsoft Azure y desde hace menos tiempo Meta.
Espero que os haya sido útil esta información, y si tenéis dudas, comentéis abajo para que os podamos ayudar.
Te recomendamos los mejores procesadores

